# 第5章

# PCI Express 搭載 LSI の設計

IP コア選定の考え方と PCI Express 高速転送技術



最近、高速な拡張バスとして使われてきたPCI-Xが消えつつあり、PCI Expressにとって代わっている。読者の中にも、PCIやPCI-Xの拡張カードをPCI Expressに置き換える必要性を感じている方も多いと思う。本稿では、筆者らが開発したPCI Expressとローカル・バスのブリッジLSIを例にとり、FPGA(Field Programmable Gate Array)や ASIC (Application Specific Integrated Circuit)に PCI Express などのバス・インターフェースを実現するためのIP (Intellectual Property)コア選定手法を解説する。IPコアを使いこなして転送能力を最大限に取り出す技術を解説する。 (筆者)

# **△1** 要求される PCI Express の機能と性能の洗い出し

● IP コアでローカル・バスとのブリッジLSI を設計 どのようなものを作る場合でも同じですが,最初に必要な機能と性能を洗い出します.今回,筆者らが設計した



写真1 今回作成したLSIの 外観

アバールデータ製のPCI Express bus Bridge 「AAE-B04」. LSI( **写真**1 )では,最初に次のような要求がありました.

- ●本 LSI を使って PCI Express インターフェースを 安価に実現できる
- 汎用的に使える
- PCI Express の 4 レーン(x4)に対応する
- PCI Express の帯域に見合ったローカル・バス・ インターフェースを実装する
- PCI Express とローカル・バスの双方からアクセス 可能な大容量・高速メモリのインターフェースを 搭載する
- DMA( Direct Memory Access )コントローラを内蔵し, Scatter/Getterモード<sup>注1</sup>に対応する
- ●転送性能を限界まで引き出せる
- PCI Express 部は市販の IP コアを使う
- コスト面からストラクチャード ASIC を使う

また,明確な要求以外の潜在的な要求は常に存在します.潜在的な要求を考慮しないと応用が利かず,製品寿命が短くなります.

筆者の経験では,潜在的な要求の洗い出しに一番効果 的なのは,キーとなる人に直接聞き取り調査を行うこと

注1:DMA 転送方法の一つで、転送元・転送先・転送サイズが書かれた テーブルを参照しながら連続的にデータ転送を行う方法、複数のテー ブルをつなげることが可能なので、非連続アドレスを転送元・転送先 とするデータ転送がソフトウェア負荷なしに実行できる、Windowsや Linux といった、仮想メモリを使用したOSでは実メモリ・アドレス が連続して確保されないため、このモードが必要となる。

**Ke**yWord

PHY IP, MAC IP, DMA, ペイロード・サイズ, リンクアップ, TCマッピング, チップセット, レシーバ検出, IPコア, トランザクション型バス, インターロック型バス

です、メールを送って返事を待つより、直接話を聞いた 方がより多くの情報を入手できます. 聞かれる方も話す うちに頭が整理できます. 聞き取りで以下の潜在的要求 があることが分かりました.

- ローカル・バスには必ず FPGA が接続されるので. FPGA との接続性が良いこと
- FPGA のコンフィグレーションを行える.また, ホストからコンフィグレーション・データをアッ プデートできること
- ●部品点数を少なくできるようにシンプルな回路構 成となること(特にコストへの影響が大きいクロッ クと電源の部品)

以上の要求のうち, IPコアを用いる PCI Express 部以 外は,ほぼフルスクラッチで作成することになります. この時点でかなりの設計量になることが予想されます.

## 2 PCI ExpressのIPコア選定

### ● MAC 部の IP コアでボードの特徴が決まる

要求仕様を踏まえ,重要なPCI ExpressのIPコアを選 定します.詳細仕様を決める前にIPコア選定を行うの は、使用するIPコアによって、仕様に大きな影響を与え るからです.IPコアにより実装可能な機能が決まったり, 実装にかかる設計量が大きく変わったりします.

PCI Express は通常,二つのIPを組み合わせて使用しま す. 一つはPHY部分のIPコア(PHY IP), もう一つはMAC (Media Access Control) 部分のIPコア(MACIP)です.

PHY IPは, 2.5Gbps インターフェースを含む物理層の 電気サブブロックと、論理サブブロックの一部が含まれ

表1 IP ごとの特徴

ます、普通はLSIベンダより供給されます、PHY IPと MAC IP は通常, PIPE インターフェースで接続されます (図1).

MAC IPは,物理層の論理サブブロックより上位の部 分です. PCI Expressでは,このMAC IPを選択するこ とにより PCI Express 部の個性が決まります.

### ● トランザクション層の充実度がIP コア選択の決め手

MAC IPの選定において重要なのは以下の項目です. トランザクション層の回路をどの程度実装しているか また,ユーザ・インターフェースはどうなっているか. プロトコル・データ・バス幅・クロック周波数など. 回路規模はどの程度か.

IPコアベンダのサポート体制は良いか.

は自身でどの程度作り込む必要があるかに直結しま す. PCI ExpressのIPコア(MAC IP)でよく見るのは, トランザクション層パケット(TLP)がほぼそのままユー

> トランザクション層 データ・バッファ コンフィグレーション ヘッダ・バッファ データ・リンク層 リトライ・バッファ 物理層ブロック PIPE 論理サブブロ ... \_ インターフェース PCS SERDES PHY 調で PCI Express

図1 PCI Express 部の 基本的な構造

PCI Express Ø IP ☐ アは通常MAC部と PHY 部の二つに分か れて提供される.

| ドヘンタにより注力し | ノ (いる部分か異なるの) | か分かる. |         |          |     |          |          |
|------------|---------------|-------|---------|----------|-----|----------|----------|
| ./ ±       | TL( トランザクショ   | Max   | MAX     | ID IE DI | DMA | バックエンド・イ | インターフェース |
| メーカ        | ン層 )の作り込み度    | レーン   | Payload | IP 種別    | DMA | タイプ      | マスタ/ターゲッ |
| インベンチュア    | 高             | 16    | 4Kバイト   | ソフト・マクロ  | なし  | メモリ・アクセス | 分離       |
| A社 Aタイプ    | 中             | 8     | 2Kバイト   | ソフト・マクロ  | あり  | メモリ・アクセス | 分離       |
|            |               |       |         |          |     |          | 11 (1 48 |

| グーカ       | ン層)の作り込み度 | レーン | Payload | 「単加     | DIMA | タイプ      | マスタ/ターゲット |
|-----------|-----------|-----|---------|---------|------|----------|-----------|
| インベンチュア   | 高         | 16  | 4Kバイト   | ソフト・マクロ | なし   | メモリ・アクセス | 分離        |
| A 社 A タイプ | 中         | 8   | 2Kバイト   | ソフト・マクロ | あり   | メモリ・アクセス | 分離        |
| A 社 B タイプ | 中         | 4   | 4Kバイト   | ソフト・マクロ | なし   | TLPパケット  | 非分離       |
| B社 X タイプ  | 低         | 8   | 4Kバイト   | ハード・マクロ | なし   | TLPパケット  | 非分離       |
| B社 Y タイプ  | 低         | 8   | 512バイト  | ソフト・マクロ | なし   | TLPパケット  | 非分離       |
| C社        | 低         | 8   | 2Kバイト   | ソフト・マクロ | なし   | TLPパケット  | 非分離       |
| D社        | 低         | 16  | 4K バイト  | ソフト・マクロ | なし   | TLPパケット  | 分離        |

Pro

ザ・インターフェースに出てきているものです.

このタイプのIPコアを選定すると,PCI Expressの仕様を熟知しないと使いこなすことが難しく,ユーザが作り込む回路が増大します.せっかく開発の手間を省くためにIPコアを購入して,ユーザ回路に注力したいのに,仕様の調査に多くの時間をとられる結果になりかねません.

今回選定にあたり調査したIPコアを表1にまとめました.ユーザ回路と接続する側のバックエンド・インターフェースはメモリにアクセスする感覚で利用でき,マスタとターゲットのポートが分離されているものがお勧め



### 図2 十分なバッファ実装時

ペイロード・サイズの4倍のバッファを確保した場合,受信側のデータ処理は,通常,受信パケットにエラーがないことを確認してから開始するため,上記の様なタイミングになる.

です.また,クロック周波数やデータ・バス幅と使用するデバイスが合っていないと実装が難しくなります.

は とトレードオフの関係になります.必要な機能が実装されているのであれば,回路規模は小さいに越したことはありません.また,コスト面からPCI Expressに割ける回路規模はある程度決まってしまうので,実装可能か判断する必要があります.

については、コミュニケーションのしやすさ、マニュアルなどの資料の充実度、サポートの良さなどで決まると思います。ただ、サポートに関しては実際にIPを採用して問い合わせてみないと分からないので、選定の時点で判断するのは難しいかもしれません。

筆者らは今回,総合的に判断してインベンチェア製のIPコアを採用しました.決め手はトランザクション層の作り込みの充実度と,日本のIPコアベンダなのでコミュニケーションが楽に行えることでした.

## △3○ PCI Express 開発の注意点

### ● 高速転送にはバッファとペイロードの最適化が重要

特に多レーンのPCI Express 製品を実現する場合,転送性能を十分に発揮させる必要があります.転送性能に

### 表2 **パッファの**種類と,影響する転送

使用するIPコアによって名称は若干異なる.IPコアによっては、受信側と同じ名称のバッファを送信側にも備えているものがある.Postedタイプは相手側の応答を待たずにデータを送りつける.Non-Postedタイプは相手側の応答を待ってからデータを送る.

| 名 称 |                          |      | Con | ıfig | メモリ |     | メッセージ |
|-----|--------------------------|------|-----|------|-----|-----|-------|
|     | 口が                       |      | リード | ライト  | リード | ライト | 受 信   |
|     | Posted Data Buffer       | PDB  | -   | -    | -   |     |       |
|     | Posted Header Buffer     | PHB  | -   | -    | -   |     |       |
| 受信  | Non-Posted Data Buffer   | NPDB |     |      |     | -   | -     |
| 又旧  | Non-Posted Header Buffer | NPHB |     |      |     | -   | -     |
|     | Completion Data Buffer   | CDB  |     |      |     | -   | -     |
|     | Completion Header Buffer | CHB  |     |      |     | -   | -     |
| 送信  | Retry Buffer             | RB   |     |      |     |     | -     |
| 区旧  | Retry TAG Buffer         | RTB  |     |      |     |     | -     |



大きな影響を与える要因は以下の3点です.

- ●送受信用のバッファ・サイズ(表2参照)
- 伝送部の遅延時間
- ●サポートする最大ペイロード・サイズ(MaxPL) 転送性能への影響は以下の順で大きくなります.

バッファ・サイズ > 遅延 > MaxPL

### 1)バッファ・サイズが小さいと転送性能が悪化する

PCI Expressの仕様上,データ転送を開始する時点で相手先のバッファに空きがあることを知っている必要があります(図2).バッファに空きがないと,空くまで転送を待たなければなりません(図3).

データ受信側の処理能力が十分にあったとしても、十分にこのバッファが実装されていないと、データ転送バッファの空き待ち データ転送を繰り返すことになり、全体としてデータ転送性能が悪化します.筆者の経験では、表3に挙げたバッファ・サイズで、転送への悪影響はほぼなくなります。

バッファの管理はIPコアで行います.データ系バッファは,通常LSI内蔵SRAMを使用可能な構造になっています.ヘッダ系バッファは,IPコアの種類によりSRAMを使用可能な場合と,フリップフロップにしか配置できない場合があります.フリップフロップに配置する場合,1段で96~128個程度のFFを使用します.デバイス規模と相談して決める必要があります.

### 2) 開始/終了通知の遅延が大きいと転送性能が悪化

ここでいう遅延とは,データ処理要求を受け取った側が実際に処理を行い,要求元に処理完了を通知するまで

の時間のことです.実際のデータ転送にかかる時間は含みません.

遅延があると,データ処理の開始が遅れるのに加え,処理完了時にバッファが空いた,という通知も遅れます(**図**4).遅延の要因は,実際のデータ処理にかかる時間と,処理の開始/終了を相手に通知するまでの時間です.

はさらに二つに分けられます.PHY部のパラレル-シリアル変換にかかる時間とMAC部の応答時間です.PHY部の遅延はLSI/FPGAメーカによりかなり異なるようです.

実際,今回評価で使用した2社のFPGAでも遅延量が大きく異なりました.また,MAC部の動作クロックが遅い場合も遅延が増大します.

表4は実際にPHYを変更して転送速度が変化したことをまとめたものです.バッファが十分に確保されていない環境では,遅延の悪影響が発生していることが分かります.

### 3)ペイロード・サイズが小さい影響は比較的少ない

不思議に思われるかもしれませんが, MaxPL(最大ペ

Pro

5

App 1

App2

### 表3 転送速度を十分に出すために必要なバッファ量

表は遅延の大きめな PHY の場合 . 遅延の小さな PHY では , 25 ~ 50%程度減ら しても影響がないこともある .

| 項目                            | Max Payload Size( MaxPL ) |                      |  |
|-------------------------------|---------------------------|----------------------|--|
| <u> </u>                      | 128バイト                    | 256 バイト以上            |  |
| Posted Data Buffer Size       | 1024 バイト以上                | Max Payload Size x 4 |  |
| Posted Header Buffer Size     | 8バイト以上                    | 4バイト以上               |  |
| Non-Posted Header Buffer Size | 81/                       | イト以上                 |  |





図4 パッファ不足かつ , 遅延大の場合

### 表4 遅延による転送速度への影響

4 レーンでリンクさせた際の転送速度の変化の 様子をまとめた.パソコン1,2はバッファ・ サイズが不足している場合,MaxPLを128バイトに統一.

| 項目    | チップ   | バッ  | ファ      | PHY1(B社FPGA) | PHY2(C社FPGA) | PHY3( ESチップ ) |
|-------|-------|-----|---------|--------------|--------------|---------------|
|       | セット   | PHB | PDB     | 遅延大          | 遅延中          | 遅延小           |
| パソコン1 | E7221 | 4個  | 256 バイト | 271M バイト/s   | 365M バイト/s   | 422M バイト/s    |
| パソコン2 | 945G  | 8個  | 512バイト  | 548M バイト/s   | 720M バイト/s   | 744M バイト/s    |
| パソコン3 | E7520 | 12個 | 768バイト  | 742M バイト/s   | 744M バイト/s   | 744M バイト/s    |

イロード・サイズ )の影響はあまり大きくありません . MaxPL が大きいと , トランザクションに占めるデータの割合が多くなり , 速度が向上します . しかし , バッファ・サイズや遅延により速度が低下している状況では , そもそもデータを送り出せません . MaxPL が大きくても速度は上がらなくなります .

バッファ・サイズが十分で,遅延が悪影響を及ぼさないときのMaxPLの値の例を**表**5に示します.

MaxPL は大きい方がベターですが、必要なバッファ・サイズも多くなります。MaxPL に比べバッファ・サイズが小さすぎると、転送性能が悪化する場合もあります。

もう一つ MaxPL の影響が限定的になる要因は,接続する PCI Express デバイスの MaxPL があまり大きくないことにあります. MaxPL は,接続する PCI Express デバイスの小さい側の数値に合わせられます. それ以上大きなサイズに対応していても意味がありません.

米国 Intel 社のデスクトップ/ ノート・パソコン向けチップセットの MaxPL は 128 バイト , サーバ/ワークステーション向けチップセットの MaxPL は 256 バイトとなっています . 評価で使用した米国 AMD( Advanced Micro Device)社の CPU の中には , MaxPL が 512 バイトのチップセットもありました .

表 5 Max ペイロード・サイズによる転送 速度への影響

|   | 項 目  | MaxPL   | 転送速度       |
|---|------|---------|------------|
| バ | ソコン3 | 128 バイト | 760M バイト/s |
| バ | ソコン4 | 256 バイト | 845M バイト/s |
| バ | ソコン5 | 512バイト  | 894M バイト/s |

### 表6 チップセットのバッファと対応するペイロード・サイズ

チップセットにより , バッファ搭載量にかなりバラツキがある . データシートには本値に関する記述はない . (今回使用したパソコンでの実測値 )設定や構成により値が異なる可能性があることをご了承いただきたい .

|      |         |          | バッフ    |            |        |           |
|------|---------|----------|--------|------------|--------|-----------|
|      | 型番      | メーカ      | /      | ヘッダ        | データ    | ( MaxPL ) |
|      |         |          | Posted | Non Posted | Posted |           |
|      | 945     | Intel    | 8      | 14         | 512    | 128       |
|      | E7221   | Intel    | 4      | 12         | 256    | 256       |
| МСН  | E7230   | Intel    | 8      | 14         | 512    | 256       |
| MICH | E7520   | Intel    | 12     | 8          | 768    | 256       |
|      | 5000X   | Intel    | 4      | 4          | 512    | 256       |
|      | HT-2100 | Broadcom | 16     | 32         | 2304   | 512       |
| ICH  | ICH7    | Intel    | 16     | 16         | 1024   | 128       |
| ЮП   | 631xESB | Intel    | 14     | 14         | 864    | 256       |

### 4)接続先の転送性能が低いと性能は上がらない

前述の MaxPL だけでなく, 転送性能は通信相手のバッファ・サイズと遅延の影響も受けます. 特に古いチップセットのバッファ・サイズは, かなり少なくなっています. 不特定のパソコンに差して使用する, 汎用的なボードの場合には気をつけてください(表6).

### ● IP をスプリット・トランザクション型バスで接続

IPコアのトランザクション層側と接続するバス・インターフェースを決める際に注意すべき点があります.接続するバスは大きく分けて,リード動作の異なる下記2種類から選択することになります(**図**5).

- スプリット・トランザクション型
- インターロック型

スプリット・トランザクション型は,コマンド(アドレス)とデータのバス制御が分離しているタイプです.コマンドを発行したあと,データが返ってくる前に次のコマンドを発行できます.インターロック型は,コマンドとデータのバス制御が分離されていないタイプです.リード・コマンドを発行したら,データを読み終わるまでコマンド発行を停止します(図2).

PCI Expressでは、インターロック型を使用するとリード・レイテンシが大きくなり、転送性能が極端に悪化します.従来のPCIやPCI-Xに比べ、シリアル-パラレル変換時間が増大し、MAC部分の階層が深くなっているためです.筆者の知る限り、IPコアのインターフェースはどれもスプリット型になっています.

LSIの外に出る部分はどうしてもインターロック型に



# 図5 スプリット・トランザクション型バスとインターロック型 バスの違い

最初のデータが出てくるまでの時間は同じだが、最後のデータの読み出しまでは大きな時間差が発生する. PCI Express では、従来のパラレル・バスと比較して遅延が増大しているため、影響が大きい.

なってしまう個所が発生すると思います. できるだけスプリット型で構成し, 末端でインターロック型に変換してください.

また、リード・レイテンシに関連して、PCI Express 経由の小さなデータの読み出しは遅い、ということに注意してください、特にCPUが「データを一つ読む 処理 データを一つ読む 処理…」と繰り返す場合、性能が顕著に低下します、これはシリアル・バスを採用している以上回避できません。

### ● 動作周波数向上のためIPとの接続信号にFFを使う

そのほか一般的な注意点としては,ユーザ回路からIPコアへの入力信号をFFの出力とすることです.IPコアへの入力信号はかなり深い階層まで直接接続されている場合があります.IPコアへの入力信号をフリップフロップの出力としないと,必要な動作周波数が確保できません(筆者はこの部分で今回少し泣きました).

## \_4> FPGA による実機評価

今回のLSI設計では、マスクを起こしてLSIを作成する前にFPGAに実装して評価を行いました.市販のPCI Express評価ボードを購入し、FPGAは高速シリアル・ト



図6 レシーパ検出のしくみ

送信レーン側が,受信レーンが接続されているかを確認する機能.何レーンでリンクを確立させるか認識するために使用する.電圧変化時間を測定することで実現する.まずトランスミッタは初期とは逆のレベルに電圧を変化させ,(1)レシーバ接続時:コンデンサに充電するため,伝送路上の電圧はゆっくり変化,(2)レシーバ未接続時:コンデンサがないのと等価であるため電圧は急速に変化,を判定する.

ランシーバを内蔵したものを使って実機評価を行いました.ここでは実機評価の際に生じた問題点を説明します.

### ● ボードと実際のレーン数が違うとリンクアップしない

評価ボードをパソコンに差して動かそうとしたところ, リンクアップできるパソコンとできないパソコンがあり ました.中にはBIOSの起動すらできないパソコンもあ りました.

最初は、相性の問題という安易な考えで放置していたのですが、評価が進むにつれて気になってきました、評価中に何気なく、パソコンと評価ボードの間にPCI Expressアナライザを入れて電源を入れたところ、正常にリンクアップできることが分かりました。

原因は,評価ボードにありました.今回,8レーンの評価ボードを使用しました.しかし,4レーンをターゲットに設計していたため,中身の回路は4レーン分しか実装していません.

レシーバ検出でパソコンが認識した評価ボードのレーン数と,実際に実装された回路のレーン数が異なっていたために,正しくリンクアップできませんでした(**図**6).使用していないレーンにマスキング・テープを張るとすべてのパソコンでリンクアップするようになりました(**写真**2).

PCI Express アナライザを使用すると正常に動作したのは,使用していたアナライザが4レーン対応だったので,回路が実装されているレーンしかパソコン側に接続されていなかったからです.

### ● VC を一つしか使わなくてもTC マッピングが必要

PCI Express 部リンクアップ,コンフィグレーション



写真2 8 レーンのポードの上位4 レーンをマスキング

8 レーンのボードをそのままパソコンに差してしまうと,回路が実装されていないレーンまでレシーパ検出が行われてしまい,リンクアップできないパソコンが存在した.上位4レーンに魔法のテープ(ただのマスキング・テープ)を張ると,どのパソコンでもリンクアップできるようになった.

Pro

1

2

3

App 1

App2

### PCI Express ブリッジLSI「AAE-B04」

コラム

今回,筆者らが設計したのは,PCI Express とローカル・バスの ブリッジ LSI「A A E-B04」です(図A,表A).4 レーンの PCI Express インターフェースを実現でき,高速なデータ転送を必要と するさまざまな場面で使用可能です.

通信モジュールやカメラ・モジュールなどで筆者らは実際に製品に搭載しています(**図**B). 興味のある方は右記にご連絡ください.

サンプル価格:未定 出荷開始:2007年12月 製品の詳細,および購入に関する問い合わせ

(株)アバールデータ 営業部

TEL: 042-732-1030

E-mail: Sales@avaldata.co.jp



#### 図A AAE-B04 の内部プロック図

各ブロックはマトリックス・スイッチで接続されており,同時に異なった個所のデータ転送が実行できる.メモリ・コントローラは2ポートでスイッチに接続されており,PCI Express とローカル・バス双方からの同時アクセスが可能.

空間のアクセス,内部レジスタのアクセスまでは動作したのですが,DMAが全く動作しません.DMAを開始し

LSIのデフォルト状態でのTC/VCマッピング



図7 DMA が動かなかった原因

DMA データ転送に,何のVC にもマッピングされていないTC を使用していた.このためデータを流す途中で詰まってしまい,パソコンがハングアップを起こした(このときはTC[7]を使用).

た途端にパソコンがハングアップしてしまいます.

シミュレーションでは正常に動作しています.PCI Express アナライザで実際のパケットを観測しても,PCI Express 上にメモリ・アクセス・コマンドが正しく送られている様に見えます.ただし,リード・アクセスでは相手先からデータが返ってきません.

原因は,トラフィック・クラス(TC)<sup>注2</sup>にありました. 今回はバーチャル・チャネル(VC)を一つしか使用しない ため,TCは何でも構わない,と思っていました.しかし, 評価に使用したパソコンではTC0のみがVC0にマッピン グされていたため,正常に動作しませんでした(**図**7).

仕様を正しく理解していなかったのがバグの原因です.

注2:トランザクションの優先順位指定に使用し,0~7までの値を指定できる.バーチャル・チャネル(VC)を使用する場合に使用する.VC0とTC=0は必ずマッピングされるので,VC0しかない場合(VC使用しない場合)はTC=0を使用する.デフォルトでは,すべてのTCがVC0にマッピングされる.

表A 今回作成したLSIの 仕様

|                        | 規格                   | Base Specification Revision1.0a                                                                                        |
|------------------------|----------------------|------------------------------------------------------------------------------------------------------------------------|
|                        | レーン数                 | 4レーン                                                                                                                   |
| PCI Express<br>エンドポイント | 最大ペイロード・サイズ( MaxPL ) | 1Kバイト                                                                                                                  |
| エンドハインド                | バッファ・サイズ             | RX Posted Data, RX Ccompletion Data 各8Kバイト<br>Retry 4Kバイト                                                              |
|                        | バス・プロトコル             | シンプルなオリジナル・プロトコル                                                                                                       |
| - + 11 157             | 信号レベル                | 2.5V-LVTTL シングルエンド                                                                                                     |
| ローカル・バス                | バス幅                  | 64 ビット                                                                                                                 |
|                        | バス・クロック              | 133MHz( 最大 )                                                                                                           |
| 高速メモリ                  | 対応メモリ                | DDR200 ~ 400 , 容量:16M バイト~1G バイト(総容量)                                                                                  |
|                        | バス幅                  | 32 ビット                                                                                                                 |
| インターフェース               | 先読みメモリ               | 512バイト×4個                                                                                                              |
| DMA                    | チャネル数                | 2チャネル                                                                                                                  |
| コントローラ                 | 対応モード                | One Shot モード, Scatter/Getter モード                                                                                       |
| FPGA コンフィグ<br>レーション    | 対応モード                | 米国 Altera 社 FPGA : PS モード<br>米国 Xilinx 社 FPGA : Slave Serial モード<br>米国 Lattice Semiconductor 社 FPGA : Slave Serial モード |
|                        | パッケージ                | 672 ピン 1mm ピッチ BGA( 27mm 角 )                                                                                           |
| <br>  一般仕様             | 動作温度                 | 0 ~ 70                                                                                                                 |
| 一                      | 電源                   | +3.3V 20mA(最大), +2.5V 415mA(最大),<br>+1.2V 2.2A(最大)                                                                     |

# 図 B 画像入力モジュールへの応用例

高速な転送能力を生かした,複数台カメラの同時取り込みモジュールである. FPGAでは,データの並べ替えやフィルタリングなどの前処理を行う.DDRメモリは一時パッファとして利用.



ただ, TCのマッピングがデフォルトから変更されていた のは逆にラッキーかもしれません.マッピングがデフォ ルトのままであれば,バグを発見できないところでした.

### ● 非同期のDMA 転送において割り込みのバグを発見

評価も佳境に入り、LSIに負荷をかけて評価を行い始めました.DMAを2チャネル同時かつ非同期に動作させてPCI Express側にデータをライトし続ける評価で割り込みが遅延する問題が発生しました.アナライザで観測したところ、片チャネルのDMAが完了し、転送終了を割り込みで通知するところでもう一方のチャネルのDMA転送が行われていると、割り込みがなかなかPCI Express上に出てきません.

シミュレーションで同じ様な状況を再現させてみました。するとメモリ・ライト・トランザクションが途切れなく行われている状態では、割り込みメッセージがPCI

上に出力されません.メモリ・ライト・トランザクションに空き時間を作ると,割り込みメッセージ出力されます.本来,先に発生した要求を先に出力すべきところが,メモリ・ライトが優先的に処理される回路になっていました(図8).

### ● FPGAで使用したソフトが使えるようにASICを設計

今回 ES( Engineering Sample )の評価では, FPGA での評価で使用したソフトウェアをそのまま使えるようにしました.同じソフトウェアが動くようにするメリットとしては,何といっても動作確認が迅速に行えることです.

### ● コンプライアンス・テストで相互接続のお墨付き

開発したLSIのPCI Express アイ・パターンを測定してみました. **図**9(a)は今回設計したLSIのアイ・パターンです. 測定環境は以下の通りです.

Pro

1

3

4

5

App 1

App2

### 期待していた動作



DMA0完了 すぐに割り込み発生

#### **₩** 2

### 割り込みが遅延する原因

本来であれば, DMA データ・パケットと割り込み パケットは,同じ優先順位で処理されるべきだっ た、実際にはDMAパケット送出にすき間ができる まで送出されなかった.





(a) ディエンファシス機能を備えた I SIの出力



(b) ディエンファシス機能がないFPGAの出力

### 図9 PCI Express 信号のアイ・パターン

(a)のアイ・パターンは大きく開き,良好な波形が確認できた.(b)もアイ・パターンは大きく開いている.このFPGAにはディエンファ シスの機能がないため、遷移ビットと非遷移ビットの電圧レベルに変化がない、こちらもPCI Express の仕様を満足している、

- ●オシロスコープ: DSO81004B(米国 Agilent Technol ogies 社)
- CBB( Compliance Base Board ): CBB1.1

今回設計した LSI はすべて PCI Express の規格に適合 した良好なアイ・パターンを得られました.**図**9(b)は FPGA評価ボードのアイ・パターンを測定したものです. FPGA にディエンファシスの機能がないため、波形の振 幅が一定ですがこれでも規格上問題ないようです.

PCI Express にはアイ・パターンを含めて,相互接続 を保証するコンプライアンス・テストがあります、コン プライアンス・テストでは以下の項目を試験します.

- ●エレクトリカル・テスト:送信側のアイ・パター ンを測定し,規格に準拠しているか確認する.
- コンフィグレーション・テスト:コンフィグレー ション空間にアクセスを行い、規格通りのレジス 夕実装がされているか確認する(ソフトウェアを PCI-SIGのサイトよりダウンロード可能).

- プロトコル・テスト:専用のプロトコル・テスト・ カードを用いて,データ・リンク層およびトラン ザクション層が規格に準拠しているか確認する.
- ●相互接続性テスト:コンプライアンス・ワーク ショップに参加した機器同士の相互接続性,およ びゴールド・スーツと呼ばれる基準となる装置と の接続性を確認する.ゴールド・スーツすべてと, ワークショップ参加機器の80%に接続し動作でき れば合格.

いがらし・たくろう (株)アパールデータ 技術部

### <筆者プロフィール> -

五十嵐拓郎 . 主にLSI・FPGA 設計および , 製品仕様設計に従 事.1歳4ヵ月の娘とじゃれるのが何よりの楽しみ.あまりくっ つきすぎるとイヤイヤをされて悲しくなる. たまに行くダーツの 腕を磨きたい.